Search CORE

15 research outputs found

Cascade evaluation of clustering algorithm

Author: Bousquet Olivier
Candillier Laurent
Tellier Isabelle
Torre Fabien
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 18/09/2006
Field of study

International audienceThis paper is about the evaluation of the results of clustering algorithms, and the comparison of such algorithms. We propose a new method based on the enrichment of a set of independent labeled datasets by the results of clustering, and the use of a supervised method to evaluate the interest of adding such new information to the datasets. We thus adapt the cascade generalization paradigm in the case where we combine an unsupervised and a supervised learner. We also consider the case where independent supervised learnings are performed on the different groups of data objects created by the clustering. We then conduct experiments using different supervised algorithms to compare various clustering algorithms. And we thus show that our proposed method exhibits a coherent behavior, pointing out, for example, that the algorithms based on the use of complex probabilistic models outperform algorithms based on the use of simpler models

HAL - Lille 3

INRIA a CCSD electronic archive server

Identification de compatibilités entre tags descripteurs de lieux et apprentissage automatique

Author: Candillier Laurent
Delpech Estelle
Laporte Léa
Phan Samuel
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceLes travaux présentés dans cet article s'inscrivent dans le paradigme des recherches visant à acquérir des relations sémantiques à partir de folksonomies (ensemble de tags attribués à des ressources par des utilisateurs). Nous expérimentons plusieurs approches issues de l'état de l'art ainsi que l'apport de l'apprentissage automatique pour l'identification de relations entre tags. Nous obtenons dans le meilleur des cas un taux d'erreur de 23,7 % (relations non reconnues ou fausses), ce qui est encourageant au vu de la difficulté de la tâche (les annotateurs humains ont un taux de désaccord de 12%)

Scientific Publications of the University of Toulouse II Le Mirail

Diversité de recommandations : application à une plateforme de blogs et évaluation

Author: Candillier Laurent
Chevalier Max
Dudognon Damien
Mothe Josiane
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceLes systèmes de recommandations (SR) ont pour objectif de proposer automatiquement à l'usager des objets en relation avec ses intérêts. Dans le contexte de la recherche documentaire, les intérêts de l'usager peuvent être modélisés à partir des contenus des documents visités ou des actions réalisées. Pour tendre vers des recommandations plus pertinentes, nous proposons un modèle de SR qui construit une liste de recommandations répondant à un large spectre d'intérêts potentiels. L'orignialité de notre modèle est qu'il repose sur la notion de diversité, obtenue en agrégeant différentes mesures d'intérêt pour construire la liste de recommandations finale. Nous définissons également un protocole permettant d'évaluer l'intérêt de ces recommandations. Nous présentons enfin les résultats obtenus par notre SR basé sur la diversité dans le cadre de la recommandation de billets de blogs

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Évaluation en cascade d'algorithmes de clustering

Author: Bousquet Olivier
Candillier Laurent
Tellier Isabelle
Torre Fabien
Publication venue: HAL CCSD
Publication date: 01/01/2006
Field of study

National audienceCet article se place dans le cadre de l'évaluation des résultats d'algorithmes de clustering et de la comparaison de tels algorithmes. Nous proposons une nouvelle méthode basée sur l'enrichissement d'un ensemble de jeux de données étiquetés indépendants par les résultats des algorithmes de clustering considérés, et sur l'utilisation d'un algorithme supervisé pour évaluer l'intérêt de ces nouvelles informations apportées. Nous adaptons ainsi la technique de cascade generalization (Gama & Brazdil, 2000) au cas où l'on combine un apprenant supervisé et un apprenant non supervisé. Nous considérons également le cas où des apprentissages supervisés indépendants sont exécutés sur les différents groupes de données identiﬁés par le clustering (Apte et al., 2002). Nous avons mené des expérimentations en considérant différents algorithmes supervisés pour comparer plusieurs algorithmes de clustering. Nous montrons ainsi le comportement cohérent de la méthode proposée qui met en avant, par exemple, le fait que les algorithmes de clustering basés sur l'utilisation de modèles proba- bilistes plus complexes surpassent les algorithmes basés sur des modèles plus simples

HAL - Lille 3

INRIA a CCSD electronic archive server

SuSE : Subspace Selection embedded in an EM algorithm

Author: Bousquet Olivier
Candillier Laurent
Tellier Isabelle
Torre Fabien
Publication venue: HAL CCSD
Publication date: 01/01/2006
Field of study

National audienceSubspace clustering is an extension of traditional clustering that seeks to ﬁnd clusters embedded in different subspaces within a dataset. This is a particularly important challenge with high dimensional data where the curse of dimensionality occurs. It also has the beneﬁt of providing smaller descriptions of the clusters found. In this ﬁeld, we show that using probabilistic models provides many advantages over other existing methods. In particular, we show that the difﬁcult problem of the parameter settings of subspace clustering algorithms can be seen as a model selection problem in the framework of probabilistic models. It thus allows us to design a method that does not require any input parameter from the user. We also point out the interest in allowing the clusters to overlap. And ﬁnally, we show that it is well suited for detecting the noise that may exist in the data, and that this helps to provide a more understandable representation of the clusters found

HAL - Lille 3

INRIA a CCSD electronic archive server

Évaluation de la pertinence dans les moteurs de recherche géoréférencés

Author: Candillier Laurent
Dejean Sébastien
Laporte Léa
Mothe Josiane
Publication venue: HAL CCSD
Publication date: 29/05/2012
Field of study

National audienceLearning to rank documents on a search engine requires relevance judgments. We introduce the results of an innovating study on relevance modeling for local search engines. These search engines present search results on a map or as a list of maps. Each map contains all the attributes of a place (noun, address, phone number, etc). Most of these attributes are links users can click. We model the relevance as the weighted sum of all the clicks on a result. We obtain good results by fixing the same weight for each component of the model. We propose a relative order between clicks to determine the optimal weights.Optimiser le classement des résultats d’un moteur par un algorithme de learning to rank nécessite de connaître des jugements de pertinence entre requêtes et documents. Nous présentons les résultats d’une étude pilote sur la modélisation de la pertinence dans les moteurs de recherche géoréférencés. La particularité de ces moteurs est de présenter les résultats de recherche sous forme de carte géographique ou de liste de fiches. Ces fiches contiennent les caractéristiques du lieu (nom, adresse, téléphone, etc.) dont la plupart sont cliquables par l’utilisateur. Nous modélisons la pertinence comme la somme pondérée des clics sur le résultat. Nous montrons qu’équipondérer les différents éléments du modèle donne de bons résultats et qu’un ordre d’importance entre type de clics peut être déduit pour déterminer les pondérations optimales

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Mining XML Documents

Author: Candillier Laurent
Denoyer Ludovic
Gallinari Patrick
Rousset Marie-Christine
Termier Alexandre
Vercoustre Anne-Marie
Publication venue: 'IGI Global'
Publication date: 01/01/2007
Field of study

XML documents are becoming ubiquitous because of their rich and flexible format that can be used for a variety of applications. Giving the increasing size of XML collections as information sources, mining techniques that traditionally exist for text collections or databases need to be adapted and new methods to be invented to exploit the particular structure of XML documents. Basically XML documents can be seen as trees, which are well known to be complex structures. This chapter describes various ways of using and simplifying this tree structure to model documents and support efficient mining algorithms. We focus on three mining tasks: classification and clustering which are standard for text collections; discovering of frequent tree structure which is especially important for heterogeneous collection. This chapter presents some recent approaches and algorithms to support these tasks together with experimental evaluation on a variety of large XML collections

HAL - Lille 3

INRIA a CCSD electronic archive server

Contextualisation, Visualisation et Evaluation en Apprentissage Non Supervisé

Author: Candillier Laurent
Publication venue: HAL CCSD
Publication date: 15/09/2006
Field of study

Cette thèse se place dans le cadre de l'apprentissage non supervisé, qui consiste à former différents groupes à partir d'un ensemble de données, de telle manière que les données considérées comme les plus similaires soient associées au même groupe et qu'au contraire les données considérées comme différentes se retrouvent dans des groupes distincts, permettant ainsi d'extraire de la connaissance à partir de ces données. Nous proposons d'abord deux nouvelles méthodes qui prennent en compte le contexte dans lequel les groupes sont créés, c'est-à-dire le fait que les caractéristiques des différents groupes peuvent être définies sur différents sous-ensembles des attributs décrivant les données. Dans la mise en oeuvre de ces méthodes, nous avons également considéré les problématiques de la minimisation du nombre de connaissances a priori requises de la part de l'utilisateur et de la présentation des résultats sous forme compréhensible et visuelle. Nous présentons ensuite plusieurs extensions possibles de ces méthodes, dans le cadre de l'apprentissage supervisé puis face à des données semi-structurées représentées sous forme arborescente. Différentes expérimentations sur données artificielles puis sur données réelles sont présentées qui mettent en avant l'intérêt de ces méthodes. Le problème de l'évaluation des résultats produits par une méthode d'apprentissage non supervisé, et de la comparaison de telles méthodes, restant aujourd'hui un problème ouvert, nous proposons enfin une nouvelle méthode d'évaluation plus objective et quantitative que celles utilisées traditionnellement, et dont la pertinence est montrée expérimentalement

INRIA a CCSD electronic archive server